Q-Learning ist ein wertbasiertes, Off-Policy Reinforcement Learning Algorithmus. Es zielt darauf ab, eine Q-Funktion zu lernen, die die erwartete kumulative Belohnung für die Durchführung einer bestimmten Aktion in einem bestimmten Zustand darstellt und anschließend optimal handelt. Der "Q" in Q-Learning steht für "Quality", und die Q-Funktion quantifiziert die Qualität einer bestimmten Aktion in einem gegebenen Zustand.
Kernkonzepte:
<a href="https://de.wikiwhat.page/kavramlar/Zustand">Zustand</a> (State): Eine Darstellung der aktuellen Situation der Umgebung.
<a href="https://de.wikiwhat.page/kavramlar/Aktion">Aktion</a> (Action): Eine Wahl, die der Agent in einem bestimmten Zustand treffen kann.
Belohnung (Reward): Ein Feedback-Signal, das der Agent nach einer Aktion im Übergang zu einem neuen Zustand erhält.
Q-Funktion (Q-Funktion): Eine Funktion Q(s, a), die die erwartete kumulative Belohnung für die Durchführung der Aktion a
im Zustand s
und das anschließende optimale Handeln vorhersagt.
Lernrate (Learning Rate) (α): Bestimmt, wie stark neue Informationen die alte Q-Funktion überschreiben. Ein Wert zwischen 0 und 1.
Discount-Faktor (γ): Bestimmt die Bedeutung zukünftiger Belohnungen im Verhältnis zu unmittelbaren Belohnungen. Ein Wert zwischen 0 und 1.
Der Q-Learning Algorithmus:
Initialisierung: Initialisiere die Q-Tabelle (Q(s, a)) für alle Zustands-Aktions-Paare. Die Initialisierung kann mit Nullen, Zufallswerten oder Heuristiken erfolgen.
Iteration: Wiederhole für jede Episode (oder eine bestimmte Anzahl von Schritten):
s
.Wähle eine Aktion a
im aktuellen Zustand s
unter Verwendung einer Strategie, z.B. <a href="https://de.wikiwhat.page/kavramlar/epsilon-Greedy%20Strategie">Epsilon-Greedy Strategie</a>, die Exploration (zufällige Aktionen) und Exploitation (Auswahl der Aktion mit dem höchsten Q-Wert) ausbalanciert.
Führe die Aktion a
aus und beobachte die Belohnung r
und den neuen Zustand s'
.
Aktualisiere die Q-Funktion:
Q(s, a) = Q(s, a) + α * [r + γ * maxₐ' Q(s', a') - Q(s, a)]
Hierbei ist:
α
die Lernrate.γ
der Discount-Faktor.maxₐ' Q(s', a')
die maximale Q-Wert für alle möglichen Aktionen a'
im neuen Zustand s'
.Setze s = s'
.
Nutzung der gelernten Q-Funktion: Nach dem Training kann der Agent die gelernte Q-Funktion nutzen, um in jedem Zustand die optimale Aktion auszuwählen, indem er die Aktion mit dem höchsten Q-Wert für diesen Zustand auswählt (Greedy-Strategie).
Wichtige Aspekte:
Off-Policy: Q-Learning ist ein Off-Policy Algorithmus, da es die Q-Funktion unabhängig von der Politik lernt, die zur Datenerzeugung verwendet wird. Es versucht, die optimale Politik zu lernen, auch wenn es eine andere Politik zur Erkundung der Umgebung verwendet (z.B. Epsilon-Greedy).
Konvergenz: Q-Learning konvergiert unter bestimmten Bedingungen (z.B. wenn alle Zustands-Aktions-Paare unendlich oft besucht werden) zu einer optimalen Q-Funktion.
Fluch der Dimensionalität: Q-Learning ist anfällig für den Fluch der Dimensionalität, wenn der Zustandsraum oder der Aktionsraum groß ist. In solchen Fällen können Funktionsapproximationen (z.B. Deep Q-Networks - DQN) eingesetzt werden.
Anwendungen: Q-Learning wird in einer Vielzahl von Anwendungen eingesetzt, darunter Robotik, Spielautomatisierung (z.B. Atari-Spiele), Ressourcenmanagement und Empfehlungssysteme.
Varianten und Erweiterungen:
Deep Q-Networks (DQN): Nutzen tiefe neuronale Netze zur Approximation der Q-Funktion, um mit großen Zustandsräumen umzugehen.
Double Q-Learning: Verringert das Risiko der Überschätzung von Q-Werten, was zu einer stabileren und zuverlässigeren Lernleistung führt.
Ne Demek sitesindeki bilgiler kullanıcılar vasıtasıyla veya otomatik oluşturulmuştur. Buradaki bilgilerin doğru olduğu garanti edilmez. Düzeltilmesi gereken bilgi olduğunu düşünüyorsanız bizimle iletişime geçiniz. Her türlü görüş, destek ve önerileriniz için iletisim@nedemek.page